从0到1搭建数仓,可以概括为6个步骤:业务探查、技术选型、规范制定、主题域划分、数仓分层、模型建设。一、业务探查梳理公司业务系统,业务关心的指标,开发过的需求。一般业务关心的数据集中在两三类数据上二、技术选型根据已有的数据,选择技术平台,及开发语言。Deloitte已经选好用CDH,这步可以不考虑三、规范制定在数仓建设阶段,我们只需要制定数仓相关的规范。如:分层设计规范、表命名规范、字段命名规范、层次调度规范、脚本开发规范。网上都有这些规范的相关文章,需要结合公司情况改一下。这些规范最好在开发前,整理成一个简单的文档,这样方便我们数仓的维护。备注:数仓建设完成后,可能会设计元数据管理、数据质量
背景码云(Gitee)简介: 码云(Gitee)是开源中国社区推出的代码托管协作开发平台,支持Git,提供免费的私有仓库托管。Gitee目前已经成为国内最大的代码托管平台。帮助开发者存储和管理其项目源代码,且能够追踪、记录并控制用户对其代码的修改,提供稳定、高效、安全的云端软件开发协作平台。无论是个人、团队或是企业,都能够用Gitee实现代码托管、项目管理、协作开发。 Git是一种版本控制系统,是一个命令,一种工具。 Gitee与Github均都是基于Git实现在线托管代码的仓库。Github在国内访问速度过慢,所以建议使用Gitee。但如果是要做开源项目,而且还是真开源,希望项目有更多
文章目录背景一、一套代码关联多个远程仓库,按需更新1.本地创建好项目文件夹2.打开终端,cd进入项目文件夹,然后初始化3.添加仓库地址4.查看关联的仓库地址情况5.add文件6.commit7.提交到仓库8.拉取代码二、一套代码一次性提交到所有的仓库1.删除其余的仓库2.添加远程仓库3.查看关联的仓库地址情况4.一次性提交背景本文主要讲述在平时开发中,一份代码可能有多份远程仓库的情况下,需要更新到不同的仓库以及同步更新到所有的仓库一、一套代码关联多个远程仓库,按需更新1.本地创建好项目文件夹2.打开终端,cd进入项目文件夹,然后初始化gitinit3.添加仓库地址gitremoteadd仓库名
一 新建dev分支1.在右下角当前分支下,选择创建分支选项 2.给分支起名字3.创建后,自动切换成新分支 4.将dev分支内容提交到远程dev仓库进行add,commit,pull,push操作。1commit操作 2.进行pull操作,远程仓库没有,可暂时忽略 3.push操作 4.查看远程仓库 二 dev合并代码到master分支2.1在dev分支进行修改内容 2.2切换到master分支1.切换到master分支 切换到远程master分支后,然后进行add,commit,pull,push之后,保持和远程master分支代码同步是最新的;(如果是非严谨开发,可以这样做,拉取远程
以下是git常用命令:1.gitinit:初始化一个新的Git仓库。2.gitclone[[2](https://zhuanlan.zhihu.com/p/384819351)]:用于将远程Git仓库中的代码克隆到本地。3.gitadd:将修改后的文件添加到暂存区(stage)。4.gitcommit:将暂存区中的文件提交到本地仓库中。5.gitstatus:查看当前工作区和暂存区的状态。6.gitpush:将本地仓库中的代码推送到远程Git仓库。7.gitpull:将远程Git仓库中的代码拉取到本地进行更新。8.gitbranch:列出本地分支,或者创建、删除分支。9.gitcheckout
数据仓库建设一、数据仓库概念1.数仓架构我们在谈到数据仓库,都会提到数仓架构,那么数仓架构到底是什么呢?首先,架构就是把一个整体工作按需切分成不同部分的内容,由不同角色来完成这些分工,并通过建立不同部分相互沟通的机制,使得这些部分能够有机的结合为一个整体,并完成这个整体所需要的所有活动。而数仓架构就可以理解为是构成数据仓库的组件以及之间的具有交互机制的关系。如上图所示,数仓的数据源可能来自业务系统的数据,或者外部获取的数据,或者从线下文件导入的数据。通过抽取工作,将这些数据存储到数仓的原始数据层中,并存储根据ETL、转换、处理等操作后的数据。在整个过程中,调度平台功能主要实现数据抽取和ET
一、搭建本地私有仓库有时候使用DockerHub这样的公共仓库可能不方便,这种情况下用户可以使用registry创建一个本地仓库供私人使用,这点跟Maven的管理类似。使用私有仓库有许多优点:1)节省网络带宽,针对于每个镜像不用每个人都去中央仓库上面去下载,只需要从私有仓库中下载即可;2)提供镜像资源利用,针对于公司内部使用的镜像,推送到本地的私有仓库中,以供公司内部相关人员使用。1、首先下载registry镜像dockerpullregistryDocker官方提供了一个搭建私有仓库的镜像registry(注册服务器),只需把镜像下载下来,运行容器并暴露5000端口,就可以使用了目前Dock
最近在一次项目代码提交中因为没注意看到项目现在的代码在那个分支所以导致提交了错误代码到git分支上,因为以前没遇到过这种情况,所以寻找同事和自己摸索了一下终于找出了具体的解决方法,特此记录一下。首先在本地输入命令(可以在idea的Terminal里输入命令)gitreflog查看当前版本号;(当前分支的版本号)然后使用gitreset版本号(刚刚命令所看见的版本号,想回退那个版本就选那个)进行版本回退;之后使用gitpushoriginHEAD--force强推到远程仓库进行远程仓库版本回退(如果不是主分支的话这个命令可能会推送至主分支覆盖,我这次暂时是针对于主分支,下次针对于其他分支可以先进
1、数据仓库工作流调度1.1调度工具部署工具部署链接1.2新数据生成1.2.1用户行为日志1、启动日志采集通道,包括Kafka、Flume等(1)启动Zookeeperzk.shstart(2)启动Kafkakf.shstart(3)启动Flumef1.shstartf2.shstart2、修改日志模拟器配置文件修改hadoop102和hadoop103两台节点中的/opt/module/applog/application.yml文件,修改mock.date参数如下。mock.date:"2020-06-15"3、执行日志生成脚本lg.sh4、观察HDFS上是否有2020-06-15的日志数
首次提交:1、通过命令 gitinit 把这个目录变成git可以管理的仓库gitinit2、把文件添加到版本库中-- 通过命令 gitadd. / gitadd-A 将所有文件添加到暂存区,注意后面的小数点“.”和“-A”,意思是为添加文件夹下的所有文件,如果需添加指定文件夹gitadd后面直接跟文件夹名称(暂存区是一个介于你的工作区和版本库的中间状态)gitadd./gitadd-A3、把文件提交到gitee仓库-- 通过命令 gitcommit 将文件提交到gitee仓库,引号内用来描述你本次提交的代码都做了哪些操作gitcommit-m"xxxx"4、关联到远程库-- 通过命令 gitr